查看原文
其他

EDGAR | 25年数据的预训练词向量模型(含代码)

大邓 大邓和他的Python
2024-09-09

EDGAR 是美国证券交易委员会(SEC)的电子数据收集、分析和检索系统。EDGAR系统允许公众通过互联网访问公司提交给SEC的各种文件,例如注册声明、年度报告和其他披露文件。这些文件包括公司的财务信息、业务信息和其他关键信息,对于投资者和研究人员来说非常有用。

金融等方向的同学,如果想用 词嵌入 技术开展研究, 可以考虑使用这个开源的数据集。


一、EDGAR-CORPUS

在 EMNLP 2021同时举办的经济与自然语言处理研讨会(ECONLP)论文集中, 发布了EDGAR-CORPUS,这是一个新颖的语料库,包括美国所有上市公司超过25年的年报。

所有报告都已下载,拆分为相应的项目(部分),并以清洁、易于使用的JSON格式提供。

1.1 下载数据

https://zenodo.org/record/5528490


1. 2 引用格式

Lefteris Loukas, Manos Fergadiotis, Ion Androutsopoulos, & Prodromos Malakasiotis. (2021). EDGAR-CORPUS [Data set]. Zenodo. https://doi.org/10.5281/zenodo.5528490



二、EDGAR-W2V Embeddings

EDGAR-W2V 是在 EDGAR-CORPUS 上训练的词嵌入模型。它是一个200维的模型,包含 10 万个金融词汇。EDGAR-W2V的相关信息可以在题为“EDGAR-CORPUS: Billions of Tokens Make The World Go Round”的论文中找到,该论文发表于2021年EMNLP会议上的经济学和自然语言处理研讨会(ECONLP)。

1.1 下载模型

https://zenodo.org/record/5524358


1. 2 引用格式

Lefteris Loukas, Manos Fergadiotis, Ion Androutsopoulos, & Prodromos Malakasiotis. (2021). EDGAR-W2V Embeddings. Zenodo. https://doi.org/10.5281/zenodo.5524358


三、代码

3.1 导入词汇表

vocab = open('edgar.word.w2v.200.vocab', encoding='utf-8').read().split('\n')

print('词汇量: ', len(vocab))

#显示前100个
print(vocab[:100])

Run

词汇量:  100000

['the',
 ',',
 'of',
 '.',
 'and',
 'to',
 'NEWLINETOKEN',
 'in',
 'a',
 'for',
 ......
 'including',
 'accounting',
 'operating',
 '1',
 'fair',
 'also',
 'credit',
 'capital',
 'notes',
 'securities',
 'rate']

3.1 导入W2V模型文件

edgar.word.w2v.200.bin只存储了

from gensim.models.keyedvectors import KeyedVectors

edgar_wv = KeyedVectors.load_word2vec_format('edgar.word.w2v.200.bin'
                                             binary=True
                                             unicode_errors='ignore')

查看某个词的词向量, 返回长度200维的向量

print(edgar_wv['stock'].shape)
edgar_wv['stock']

Run

(200,)

array([ 0.19913645, -0.06109103, -0.20294489, -0.3233174 ,  0.33050874,
        0.4720499 ,  0.1584721 , -0.73845965, -0.320686  , -0.03934   ,
        0.24570467,  0.33919033, -0.42398626, -0.0519694 ,  0.5614962 ,
        0.06250261,  0.12337335,  0.4284085 , -0.18471783,  0.27163157,
       -0.25374356, -0.30515426, -0.53030056,  0.14488244,  0.23602249,
        0.17834061,  0.5282402 ,  0.35811898,  0.02480956, -0.27537134,
        0.46796346,  0.14656937, -0.24058165, -0.02558263,  0.2823333 ,
        0.13227813, -0.35262054, -0.3534915 , -0.08498703,  0.13652588,
        0.19062333, -0.59584695,  0.4724787 ,  0.0899151 , -0.30575767,
        0.0894967 , -0.42695883,  0.14332667,  0.32162446,  0.5205731 ,
       -0.34024504, -0.15563595,  0.09534936, -0.03550521, -0.24585967,
       -0.70967376,  0.23757844,  0.19296522, -0.14549816, -0.34093133,
        0.44992575, -0.31520963, -0.19251363, -0.2664489 ,  0.22087495,
       -0.0226051 ,  0.02213453, -0.31526777,  0.02245333,  0.01845511,
        0.4727852 ,  0.0823371 , -0.28313273, -0.96016574, -0.34687626,
        0.31235287, -0.2581088 , -0.7164211 ,  0.6806588 ,  0.31276935,
       -0.166056  , -0.5558513 ,  0.10650715, -0.34121472,  0.01264491,
        0.3823984 , -0.6213977 ,  0.532256  , -0.11913523,  0.22344823,
        0.3172406 , -0.08887295,  0.14381133,  0.23814514, -0.09513577,
        0.10691381,  0.13318019, -0.10131137,  0.51121044, -0.13446783,
       -0.34249052,  0.21858525, -0.66716367, -0.1002802 ,  0.1822924 ,
       -0.17896068,  0.36693272, -0.26906306,  0.16348957,  0.309529  ,
       -0.5283489 ,  0.38473064, -0.4563293 , -0.36093566,  0.02899153,
       -0.16942917, -0.24810787,  0.04769324,  0.07288674,  0.05372427,
       -0.21368156, -0.2308374 , -0.47956762,  0.26331866,  0.08796341,
        0.0316316 , -0.04519949,  0.03246075, -0.06966034,  0.08757813,
        0.16438614, -0.16775173, -0.10321777,  0.21712255,  0.1252789 ,
       -0.34793332,  0.01499637, -0.32516828,  0.15845637, -0.1023875 ,
       -0.05895114, -0.08138125,  0.08420486, -0.18958494, -0.22417304,
        0.5160968 ,  0.13966903,  0.17438166,  0.13805066, -0.1817818 ,
        0.09644702, -0.34120768,  0.36722133, -0.06767058, -0.3896219 ,
       -0.1555085 , -0.07321457, -0.24285823, -0.23933856,  0.26198393,
       -0.12067977,  0.4152437 , -0.5361226 ,  0.02143142, -0.47723222,
       -0.27638227, -0.272431  ,  0.27474684,  0.02058701,  0.398542  ,
        0.12495182, -0.43948382, -0.41649124, -0.10416509, -0.013862  ,
        0.2630676 ,  0.0534305 ,  0.26379627, -0.33174622,  0.30189517,
        0.13504176, -0.09992695,  0.6300687 , -0.14120325, -0.04877585,
        0.3973992 ,  0.50578755,  0.07440792, -0.10353652, -0.60702443,
       -0.09498709,  0.1284441 , -0.13405691, -0.19467972, -0.09931252,
       -0.28807166, -0.49167937,  0.501096  ,  0.41336802, -0.4281704 ],
      dtype=float32)



四、相关内容

如果想了解更多词嵌入(或词向量)信息,可以阅读:

更多内容请收藏博客站点 textdata.cn





精选文章

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

可视化 | 词嵌入模型用于计算社科领域刻板印象等信息(含代码)

赶快收藏 | 社会科学文本挖掘技术资料汇总

B站社会科学文本分析视频合集

词嵌入技术在社会科学领域进行数据挖掘常见39个FAQ汇总

文本分析 | 中国企业高管团队创新注意力(含代码)

文本分析 | MD&A 信息含量指标构建代码实现

金融研究 | 使用Python构建「关键审计事项信息含量」

支持开票 | Python实证指标构建与文本分析

金融研究 | 文本相似度计算与可视化

转载 | 社会计算驱动的社会科学研究方法

推荐 | 社科(经管)文本分析快速指南

视频分享 | 文本分析在经管研究中的应用

转载 | 金融学文本大数据挖掘方法与研究进展

转载 | 大数据驱动的「社会经济地位」分析研究综述

使用 Word2Vec 和 TF-IDF 计算五类企业文化

如何用「图嵌入」将企业、高管职业经历表征为向量数据

JM2022综述 | 黄金领域: 为营销研究(新洞察)采集网络数据

可视化 | 绘制《三体》人物关系网络图

MS | 使用网络算法识别创新的颠覆性与否

认知的测量 | 向量距离vs语义投影

Asent库 | 英文文本数据情感分析

PNAS | 文本网络分析&文化桥梁Python代码实现

PNAS | 使用语义距离测量一个人的创新力(发散思维)得分

tomotopy | 速度最快的LDA主题模型

数据集 | cctv新闻联播文稿数据

数据集 | 睡前消息文稿数据集

2G数据集 | 80w知乎用户问答数据

继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存